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La langue amazighe, comme la plupart des langues de moindre diffusion, 
souffre encore de la penurie d'outils et des ressources pour son traitement 
automatique, en particulier les corpus annotes. Ces derniers sont plus dijficiles 
a construire que les corpus bruts qui a leur tour necessitent, dans la majorite 
des cas, des pretraitements. L’objectif de cet article est de presenter une 
approche basee sur V apprentissage semi-supervise visant I’ utilisation d’un 
corpus de textes bruts , selectionnes sur la base de la mesure de confiance des 
Champs Aleatoires Conditionnels(CACs), conjointement avec un corpus cinnote 
manuellement de 20k morphemes. Les resultats des experimentations 
preliminaires montrent une reduction du taux d’erreur de I’etiqueteur 
morphosyntaxique de 1,3%. De meme, la reduction du taux d’erreur est-elle de 
5,9%, entre 60% et 90% du corpus, lorsque le modele est entraine par les 
phrases du corpus brut cmnotees automatiquement. 


Amazigh language, and like most of the languages which have only recently 
started being investigated for the Natural Language Processing (NLP) tasks, 
lacks annotated corpora and tools and still suffers from the scarcity of linguistic 
tools and resources and especially annotated corpora. Creating labeled data is 
a hard task. However, obtaining unlabeled data, although needing most time 
preprocessing for languages with scarce resources, is less difficult. The aim of 


1 Le premier auteur exprime sa gratitude a la CODESRIA. Les travaux du quatrieme auteur 
ont ete finances dans le cadre des projets de recherche: VLC/CAMPUS Microcluster on 
Multimodal Interaction in Intelligent Systems, la commission europeenne WIQ-EI IRSES 
(no. 269180) et DIANA-APPLICATIONS (TIN2012-38603-C02-01). 

2 Laboratoire Electronique et Communication, Ecole Mohammadia d'lngenieurs (EMI). 

3 Natural Language Engineering Lab - EliRF, DSIC. 
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this paper is to present a semi- supervised based approach using labeled and 
unlabeled data. Preliminary results show an error reduction of 1,3%, when 
training our POS tagger with Conditioned Random Fields(CRFs), with chosen 
automatically annotated texts and a small manually annotated corpus of about 
20k tokens. Also, when trained with automatically annotated data, the achieved 
improvemen t between 60% and 90% of the trained data is 5.9%. 


1. Introduction 

L’etiquetage morphosyntaxique consiste en l’annotation de chaque mot d’une 
phrase avec une etiquette recapitulant une information morphosyntaxique selon le 
contexte. II augmente I’ information des mots etiquetes pour les couches 
superieures pour le traitement automatique des langues(TAL). II s'agit de la 
premiere couche au-dessus du niveau lexical et le niveau le plus has de l'analyse 
syntaxique. Ainsi, toutes les taches traitant des niveaux linguistiques superieurs, 
utilisent le POS tagging, par exemple : l’analyse partielle ; la desambiguisation des 
sens des mots; l’affectation des fonctions grammaticales, la reconnaissance 
d'entites nominees, etc. (Manning & Schiitze, 1999, Cutting et al., 1992, Benajiba 
et al., 2010). 

Dans la litterature, il a ete demontre que les approches basees sur l'apprentissage 
supervise sont les plus efficaces pour construire les etiqueteurs grammaticaux, en 
s'appuyant sur un corpus annote manuellement et souvent d'autres ressources, telles 
que des dictionnaires et des outils de segmentation. Dans l’approche que nous 
proposons dans ce papier, nous utilisons des techniques de classification des 
sequences, basees sur les CACs et conjointement des donnees etiquetees et non 
etiquetees, pour construire notre etiqueteur grammatical. D’une part, nous utilisons 
un corpus de ~20k mots annote manuellement (Outahajala et al., 2011a) pour 
former nos modeles et les caracteristiques n-grammes lexicales pour aider a 
augmenter la performance ainsi que des ressources externes qui consistent en un 
ensemble de textes bruts. 

Le papier est organise comme suit : en section 2, nous presenterons les travaux 
connexes sur les techniques d’etiquetage morphosyntaxique. Puis, dans la section 3 
nous donnerons le cadre theorique des CACs. Dans la section 4, nous decrirons les 
experiences et nous discuterons les resultats. Enfin, dans la section 5, nous 
dresserons quelques conclusions et nous presenterons les travaux a effectuer dans 
le futur proche. 

2. Etat de l’art 

De nombreux systemes pour l’etiquetage automatique des parties du discours ont 
ete developpes pour un large eventail de langues. Parmi ces systemes, certains 
s’appuient sur les regies linguistiques et d’autres sur des techniques 
d’apprentissage automatique (Manning & Schiitze, 1999, Jurafsky & Martin, 2009). 
Les premiers etiqueteurs morphosyntaxiques etaient principalement a base de 
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regies. La construction de tels systemes necessite un travail considerable afin 
d’ecrire manuellement les regies et de coder les connaissances linguistiques qui 
regissent l’ordre de leur application. Un exemple d’etiqueteur a base de regies est 
TAGGIT, developpe par Green et Robin (Greene & Rubin, 1971) et contenant 
environ 3300 regies, ce systeme atteint une precision de 77%. Par la suite, 
l'apprentissage automatique des etiqueteurs s’ est avere a la fois moins penible et 
plus efficace que ceux a base de regies. Dans la litterature, de nombreuses 
methodes d'apprentissage ont ete appliquees avec succes pour realiser des POS 
taggeurs, tels que les Modeles de Markov Caches (HMM) (Charniak, 1993), la 
transformation systeme base sur la reduction du taux d’erreur (Brill, 1995), le 
modele d'entropie maximale (Ratnaparkhi, 1996), les arbres de decision permettent 
de construire (Schmid, 1999), sur la base d’un corpus de reference, un outil d’aide 
a la decision qui utilise ce modele. Les methodes d’apprentissage automatique 
permettent de construire des modeles complexes (comportant de tres nombreux 
parametres), chose qui est difficile a faire manuellement. La qualite des modeles 
est souvent liee a la quantite de donnees utilisees dans l’apprentissage. Ainsi, a 
partir d'exemples appris precedemment, les programmes s’appuyant sur ces 
methodes affectent l'etiquette aux mots selon le contexte. Par mi les travaux bases 
sur l’apprentissage qui ont donne de bon resultats, on cite ceux de Kudo & 
Matsumoto (2000) et de Lafferty et al. (2001). 

Bien que ces methodes aient une bonne performance, la precision des mots 
inconnus, mots hors vocabulaire du corpus de test par rapport au corpus 
d’apprentissage, est beaucoup plus faible que celle des mots connus, ce qui est 
problematique lorsque le corpus d’apprentissage est de petite taille. 

Dans la pratique, la plupart des analyseurs limitent le nombre d'etiquettes en 
ignorant certaines distinctions difficiles a desambigui'ser automatiquement, ou 
sujettes a discussion du point de vue linguistique. 

En raison de sa morphologie complexe (Chafiq, 1991 ; Ameur et al. 2004; Ameur 
et al. 2006; Boukhris et al. 2008) ainsi que l'utilisation des differents dialectes dans 
sa normalisation, la langue amazighe presente des defis interessants, pour les 
chercheurs en TAL, qui doivent etre pris en compte. Concernant la tache 
d’etiquetage morphosyntaxique, certains defis du TAL pour 1’ amazighe sont les 
suivants : 

1 . L’amazighe dispose de sa propre graphie : le Tifinaghe, qui s’ecrit de gauche a 
droite ; 

2. II ne contient pas de majuscules ; 

3. Les noms, les noms de qualite, les verbes, les pronoms, les adverbes, les 
prepositions, les focaliseurs, les interjections, les conjonctions, les pronoms, les 
particules et les determinants consistent en un seul mot entre deux blancs ou 
des signes de ponctuation. Toutefois, si une preposition ou un nom de parente 
est suivi par un pronom personnel, a la fois la preposition/nom de parente et le 
pronom qui suit, ferment chaine unique delimitee par des espaces ou des signes 
de ponctuation. Par exemple : y o (yr) signifiant « pour, au » + ? (i) qui 
signifie « moi » (pronom personnel premiere personne du singulier) donnent 
«Y o Oi lw l o? (yari/yuri) » ; 
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4. Les signes de ponctuation amazighe sont semblables aux signes de ponctuation 
adoptes au niveau international et ont les memes fonctions 4 . Les lettres 
majuscules, neanmoins, ne se produisent ni au debut ni a l’initiale des noms 
propres ; 

5. A l’instar d’autres langues naturelles, l’amazighe peut presenter des ambigui'tes 
au niveau des classes grammaticales. En effet, la meme forme de surface peut 
appartenir a plusieurs categories grammaticales selon le contexte dans la phrase. 
Par exemple, z n n z (illi) peut fonctionner comme verbe a 1’ accompli negatif, 
il signifie « il n’existe pas », ou comme nom de parente « ma fille ». Quelques 
mots tel que « a » (d) peuvent fonctionner comme preposition ou une 
conjonction de coordination ou particule de predication ou d’ orientation ; 

6. De meme que la majorite des langues dont les recherches en TAL ont 
recemment commence, 1’ amazighe est peu dote en ressources langagieres et 
outils du TAL. 

3. Les Champs Aleatoires conditionnels 

Les CACs ou CRFs sont des processus stochastiques qui modelisent les 
dependances entre un ensemble d’ observations discretes realisees sur une sequence 
discrete et un ensemble d’ etiquettes. Dans le cas de 1’ analyse morphosyntaxique la 
suite des mots est la sequence discrete. En comparaison avec les Modeles de 
Markov Caches, un CAC ne repose pas sur l’hypothese forte d’independance des 
observations entre elles conditionnellement aux etats associes. 



Figure 1 : Exemple d’un graphe des CACs, la partie encerclee est une clique. 

Les CACs sont des modeles graphiques probabilistes se basant et sur la theorie des 
graphes et sur la theorie des probability. Ces deux theories permettent de 
modeliser le probleme de classification des sequences : la theorie des graphes 


4 1 ! < J I 

Les deux caracteres : y (2D70) et (2D7F) sont deux signes de ponctuation 

supplementaires utilises par les Touaregs. Ils font desormais suite a un amendement du 
standard Unicode, partie des caracteres tifmaghes dont la liste actualisee est sur : 
http://www.unicode.org/charts/PDF/U2D30.pdf . 
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permet la modelisation des structures de sequence des etiquettes des phrases, quant 
a la theorie des probabilites, elle permet de gerer les ambiguites causees par les 
sequences des etiquettes. Les CACs sont avec les Modeles de Markov a Entropie 
Maximale(MMEMs) les deux principaux modeles discriminants. Bien que les 
MMEMs aient obtenu de bons resultats sur les taches d’ extraction d’ information et 
de segmentation (MCallum, 2000), ils souffrent du probleme du biais du label. En 
effet, si le graphe est tel qu'un nceud i n’a qu'un successeur i+1, alors la masse de 
probability est entierement transmise a y,+ / independamment des observations x, 
appele biais du label. Les CACs permettent de palier a ce probleme et cela en 
calculant les poids de transition non normalisee et en calculant un facteur de 
normalisation sur 1’ ensemble de la sequence y conditionnellement a x. 

Definition : Soit G= (V, E), ou V est l’ensemble des sommets et E l’ensemble des 
arcs, un graphe non oriente et soient X et Y deux champs aleatoires decrivant 
respectivement 1’ ensemble des etiquettes, de sorte que pour chaque nceud i 
appartenant a V, il existe une variable aleatoire y, dans Y. Nous designons (X, Y) 
comme etant un champ aleatoire conditionnel si chaque variable aleatoire Y, 
respecte la propriete de Markov suivante : p(Yi\X,Yj l ^ j) = p(Yi\X, Y j, i ~ 
j ') , oil i ~ j signifie que i et j sont voisins dans G. La figure 1 presente un exemple 
d’un graphe de CACs. 

Cette propriete n’est par consequent satisfaite que si chaque variable aleatoire ne 
depend que de ses voisins : F, ne depend que de X et des K, ses voisins dans le 
graphe d’independance. 

D’apres le theoreme de Hammersely-Clifford (Hammersly et al., 1971), la 
distribution de probability p d’un champ de Markov est decomposable comme un 
produit de fonctions (p c definies sur cliques, sous graphes complets, maximales c 
de 1’ ensemble des cliques C de G. Ainsi, la probability d’un etiquetage y etant 
donnee une realisation d’ observations x s’ecrit : 

pow-^n (pc(jc,x ^ 

Ou y c est la realisation des variables aleatoires de la clique c et Z(.x) est un 
coefficient de normalisation defini comme suit : 

= x n ^ c( ^ c ' 

y CEC 

Le coefficient Z(x) est un coefficient de normalisation egal au produit des fonctions 
de potentiel de tous les etiquetages possibles sachant la sequence d’observation x. 

Lafferty et ses co-auteurs (Lafferty et al., 2001) ont propose de definir la forme de 
la fonction (p c comme l’exponentiel de sommes ponderees des fonctions 
caracteristiques f k ayant des poids vty. 



95 



Mohamed Outahajala, Lahbib Zenkouar, Yassine Benajiba & Paolo Rosso 


K 

(p c (.y C 'X'W) = exp(V w k f k (y c ,x )) 

k= 1 

La forme de ces fonctions depend du domaine d’ application. Par exemple, dans le 
TAL, il s’agit generalement de fonctions binaires qui testent la presence ou 
1’ absence de certaines caracteristiques. Concernant les poids w k , ils permettent 
d’accorder plus ou moins d’ importance a chacune des fonctions caracteristiques. Ils 
sont fixes lors de la phase d'apprentissage en cherchant a maximiser la log- 
vraisemblance sur un ensemble d’exemples deja annotes formant le corpus de 
reference. La probability d’un etiquetage sachant une realisation d’ observations 
s’ exprime ainsi par : 

K 

P(yM - z , exp(^ ^ w k f k (y c ,x )) 

Les CACs sont appliquees a de nombreuses taches du TAL, a titre indicatif 
l'analyse syntaxique partielle (Sha, Pereira, 2003), l'extraction d'informations a 
partir des tables (Pinto et al., 2003), la reconnaissance d' entries nominees (Li & 
McCallum, 2003 ; Benajiba et al., 2010) et l’etiquetage morphosyntaxique 
(Outahajala et al., 2011b). Les CACs ont ete utilises pour de nombreuses langues 
pour P etiquetage morphosyntaxique, tel que l'amharique (Adafre, 2005), le tamoul 
(Lakshmana & Geetha, 2009), etc. 

Dans les experimentations presentees dans la section suivante, nous avons utilise 
l’outil CRF++ 5 , une implementation open source des CACs pour la segmentation et 
1' etiquetage des donnees. 

4. Experimentations et resultats 

Dans cette section, nous presentons une description du corpus brut ainsi que son 
pretraitement, ensuite les modeles de reference et enfin les experimentations 
relatives a P utilisation de la mesure de confiance, le choix des donnees 
aleatoirement pour un apprentissage semi-supervise et l’apprentissage de notre 
etiqueteur morphosyntxique. 

4.1. Description du corpus brut utilise 

Le corpus utilise dans ces experimentations a ete puise dans quelques romans 
amazighes, une partie des donnees collectees par le Linguistic Data Consortium en 
collaboration avec 1TRCAM (Cieri et Liberman, 2008), textes brut des sites web de 
1TRCAM 6 et de l’Agence Marocaine de Presse 7 ainsi que certaines phrases traduites 


5 http://crfpp.sourceforge.net/ 

6 http://www.ircam.ma/amz/index.php 

7 http://www.mapamazighe.ma/am/ 
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en amazighe de divers sources. Le corpus collecte a subi de multiples 
pretraitements, a savoir : 

- revision des textes collectes selon les regies orthographiques adoptees par 
1’IRCAM. Aussi, la correction de certaines erreurs frequentes telles que le 
mauvais placement du e muet "I". Dans ce sens, un script ecrit en PERL a 
ete realise afin de fixer cette erreur. En effet, 1’ utilisation du e muet 
s’ impose dans les deux cas suivants : 

• Succession de plus de trois consonnes radicales identiques a l’interieur du 
meme mot, par exemple IKCCill (zmmem) “inscrire”, +!++§ (tettu) “elle a 
oublie” ; 

• Radicaux verbaux se terminant par deux consonnes identiques, par 
exemple OliH(mlel) “etre blanc”, 

- Pour les textes rediges en utilisant la police Tifinaghe-IRCAM (Tifinaghe- 
IRCAM fait usage de glyphes tifinaghes mais caracteres latins), afin de 
corriger certains elements comme le caractere " A " qui existe dans certains 
textes du a une erreur en saisissant les lettres emphatiques ; 

- Transliteration des textes ecrits en Tifinaghe-IRCAM et des textes ecrits 
en utilisant la transcription officielle tifinaghe de la langue amazighe, vers 
le systeme d’ecriture choisi ; 

- Segmentation, en utilisant le segmenteur amazighe realise pour cet effet 
(Outahajala et al. 2013) ; 

Le nombre total des morphemes a partir du corpus recueilli est d’ environ un quart 
de million. 

4.2. Modeles de references 

En ce qui concerne les modeles de references utilises, nous avons choisi d’ adopter 
deux lignes de base comme references dans ces experiences. En outre, nous avons 
utilise le dernier jeu d’etiquettes disponible, compose de 28 etiquettes (Outahajala 
et al., 2013), et les CACs comme modeles de classification des sequences pour les 
generations des modeles de classification. Un jeu d’etiquettes de taille presque 
similaire a ete utilise pour l’etiquetage morphosyntaxique de l’arabe (Diab et al., 
2004). Les modeles de references utilises comme lignes de base dans les 
experimentations des sous sections 4.3 et 4.4 sont : 

1 - Modele de reference base sur la frequence des mots (Freq-Base.) : il s'agit d'un 
algorithme base sur la frequence des etiquettes des mots. L’etiquette prevue pour 
un mot est tout simplement 1’ etiquette la plus frequente qui a ete associee dans les 
donnees de formation. Ainsi, cette base ignore totalement le contexte environnant 
et resout les cas ambigus utilisant uniquement les frequences des etiquettes. Une 
telle reference a ete utilisee dans la tache de reconnaissance d'entites nominees 
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dans CoNLL. Le code source de ce modele base sur les frequences est librement 
disponible 8 . 

2 - Modele de reference du meilleur cas (Best-Base.) : pour etudier le meilleur des 
cas, on a commence par la generation d’un modele initial M init a partir de 60% des 
donnees etiquetees. Les 30% des donnees etiquetees restantes on ete subdivisees en 
blocks de 2k jetons. Ceci, dans le but d’ etudier la performance des modeles generes 
a partir des donnees annotees automatiquement. Le choix des donnees pour la 
generation de M in i,n’est pas aleatoire. En effet, nous avons effectue la validation 
croisee de 60% du corpus et nous avons pris le modele qui a donne la meilleure 
precision. 

Le choix de 1’ ensemble des caracteristiques a ete obtenu suite a des resultats 
empiriques. Ils sont les memes que ceux employes dans (Outahajala et cil., 2012) a 
savoir : 

1 . Le jet on actuel ; 

2. Les proprietes lexicales n-grammes : consistant en les i premiers et dernier 
n-grammes du jeton, avec i variant de 1 a 4. Les caracteristiques n- 
grammes servent comme caracteristiques representant les suffixes et les 
prefixes des jetons ; 

3. Le contexte lexical : s’agissant des jetons voisinant plus leurs proprietes n- 
grammes definies dans le point 2 ci-dessus ; 

4. Etiquettes de contexte qui consistent en les balises prevues pour les deux 
mots precedents. 

4.3. Experimentation : choix des donnees selon la mesure de 
confiance 

Le but de ces experimentations preliminaries est d’evaluer le critere de confiance 
dans la selection des phrases pour l’auto-apprentissage de notre modele. Nous 
avons part de l’hypothese que notre modele apprend plus quand la confiance est 
elevee. Pour evaluer notre approche. nous commenceons par un modele initial M in i, 
entraine sur la base de Tr_l (voir Figure 2), contenant P equivalent de 60% du 
corpus de reference. 

Pour ce faire, nous etudierons la correlation entre la mesure de confiance et la 
probabilite d’obtenir un etiquetage correct. C’est P estimation des chances 
d’assigner une etiquette correcte a un mot automatiquement quand la probabilite de 
P etiquette affectee au mot par le systeme est elevee. Nous pensons que cette 
estimation est importante car lorsque la correlation observee tend vers 1, la 
probabilite des donnees selectionnees tend a ameliorer le systeme et, lorsque cette 
probabilite tend vers 0,5, 1’ amelioration est aleatoire. D’un point de vue de filtrage 
du bruit, on peut dire que dans le cas d’ absence de correlation entre les deux termes 
en question, il n’est pas possible de filtrer le bruit en se basant sur la mesure de 
confiance generee par le systeme. 


8 http://www.outamed.com/downloads/baseline.txt 
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Afin d’obtenir 1’ information requise, nous avons automatiquement annote 10% du 
corpus de test (nous n’ avons intentionnellement pas utilise le corpus de test lors du 
du calcul de la correlation) utilisant M in i t . Les etiquettes obtenues ont servi comme 
donnees de base dans le calcul de la correlation. 

La correlation entre la mesure de confiance et la probabilite d’ avoir un etiquetage 
correct est 0,78. On a ainsi une nette regression positive. 

Pour etudier l’utilite de la mesure de confiance du systeme pour les mots dans la 
selection des donnees, nous avons effectue des experimentations utilisant M mit et 
les donnees brutes presentees dans la sous-section 4. 1 . Les donnees non etiquetees 
ont ete annotees automatiquement et nous avons garde les meilleures : 1295 
phrases, soit 1’ equivalent de 90% des donnees annotees manuellement, selon la 
mesure de confiance. 


144 

sentences 

< > 


Tr_0 : 90% 



Tr 1 : 60% 



T 1.2 
: 10 % 




U3 : 
10% 
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10% 


U 5 = 
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U 7 : 

10% 


U 8 : 

10% 



TO : 
10% 
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Figure 2 : Subdivision des donnees pour les experimentations sur l’ apprentissage 

semi-supervise 

Dans cette experimentation, le critere de selection est base sur la mesure de la 
confiance donnee par le systeme. Apres, ce corpus a ete subdivise en 9 parties Ui, 
U 2 , U 3 , U 4 , U 5 , U6, U 7 , U§, et U 9 , ou chacune des parties U; contient 144 phrases 
avec i variant de 1 a 9 (P equivalent de 10% du nombre total des phrases du corpus 
annote manuellement). La subdivision du corpus est presentee dans la figure 2. 
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Figure 3 : Apprentissage du modele en utilisant la mesure de confiance du mot 

comme moyen de selection 

Nous avons remarque qu’au fur et a mesure que la performance augmente, elle 
devient difficile a ameliorer. Neanmoins, la difference d’ amelioration ne diminue 
pas de faijon reguliere, elle fluctue legerement. Par exemple, le taux d’ amelioration 
entre 70 et 80% (0.81) est superieur au taux d’ amelioration entre 60 et 70% (0.66) 
lorsqu’on fait l’entrainement des modeles a l’aide des donnees annotees 
manuellement. A l’analyse des fichiers en sortie de l’etiqueteur, il s’avere que les 
mots hors vocabulaire constituent un facteur important dans 1’ amelioration de la 
precision de l’etiqueteur. Aussi, la performance des modeles bases sur les CACs 
est-elle nettement superieure a celle du modele a base des frequences. 

Pour ce qui est des resultats du modele utilisant et les donnees du corpus de 
reference et les donnees brutes, P amelioration est legere. Les resultats de 
1’ experimentation montrent qu’il y a une reduction du taux d’erreur de 1,3% (voir 
figure 2). 

4.4. Experimentation : choix aleatoire des donnees pour 
l’apprentissage 

Pour etudier l’effet d’ignorer la confiance et voir si ce critere est important ou non, 
nous avons conduit une experimentation ou nous commenceons par M init et a 
chaque iteration de P operation d’ apprentissage nous ajoutons 144 phrases de U 
annotees automatiquement par M ini t et choisies aleatoirement. 

Tels que montres dans la figure 4, les resultats de 1’ apprentissage a partir des 
donnees choisies aleatoirement sont moins precis que ceux qui se basent sur la 
selection des donnees en utilisant la mesure de la confiance. Ceci confirme l’utihte 
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de cette mesure dans la selection des phrases dans 1’ auto-apprentissage de notre 
etiqueteur morphosyntaxique. 

Dans la figure 4, CRFs-R represente le modele genere a partir des donnees 
selectionnees aleatoirement et CRF-BS le modele genere en utilisant la mesure de 
confiance du mot comme moyen de selection des donnees pour l’apprentissage. 



Figure 4 : Apprentissage a partir de donnees selectionnees aleatoirement 

Afin de verifier l’hypothese que le bruit de 1’ auto-apprentissage n’empeche pas la 
reduction du taux d’erreur lors de l’entrainement de notre modele, nous avons 
conduit 1’ experimentation suivante : 

- generation de M init a partir des parties Ui, U 2 ,...U 6 constituant 60% de la taille du 
corpus de reference ; 

- ajout a chaque iteration de 1’ apprentissage de 144 phrases au corpus 
d’ apprentissage jusqu'a ce que le corpus d’ apprentissage atteigne 1’ equivalent de 90% 
du corpus de reference. 

Les resultats de 1’ experimentation montrent qu’il y a une reduction du taux d’erreur 
de 5,9% entre M init et le modele appris en utilisant Ui, Ui,. . .Uq. Ce qui montre que, 
meme si le bruit existe, le systeme continue d’apprendre. 

5. Conclusions 

La langue amazighe, comme la plupart des langues de moindre diffusion, souffre 
encore de la penurie d'outils et des ressources pour son traitement automatique, en 
particulier les corpus annotes. Dans ce papier, nous avons presente les 
experimentations preliminaires d’utilisation de ressources externes, consistant en 
un corpus de textes bruts de 225.240 morphemes et d’un corpus manuellement 
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annote d’ environ 20k morphemes et leur impact sur la performance de la tache 
d’etiquetage morphosyntaxique de la langue amazighe. 

Les resultats des experimentations montrent une reduction du taux d’erreur de 
1,3%. Aussi la reduction du taux d’erreur est-elle de 5,9%, lorsque le modele est 
completement entraine par les phrases du corpus brut annotees automatiquement. 

Dans le futur proche, nous etudierons 1’ impact de 1’ utilisation du caractere 
informatif des MHVs et la mesure de confiance lors de l’utilisation des methodes 
d’apprentissage semi-supervise sur 1’ amelioration de la performance de l’etiqueteur 
morphosyntaxique. 
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